Dataset or Not? A Study on the Veracity of Semantic Markup for Dataset Pages

نویسندگان

چکیده

Abstract Semantic markup, such as , allows providers on the Web to describe content using a shared controlled vocabulary. This markup is invaluable in enabling broad range of applications, from vertical search engines, rich snippets results, actions emails, many others. In this paper, we focus semantic for datasets, specifically context developing engine datasets Web, Google’s Dataset Search. Search relies identify pages that datasets. While was core technology search, also discovered need address following problem: 61% internet hosts provide do not actually We analyze veracity dataset Search’s Web-scale corpus and categorize where reliable. then propose way drastically increase quality metadata by deep neural-network classifier identifies whether or page with page. Our achieves 96.7% recall at 95% precision point. level enables circumvent noise use high results users.

برای دانلود باید عضویت طلایی داشته باشید

برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید

اگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید

منابع مشابه

the effect of consciousness raising (c-r) on the reduction of translational errors: a case study

در دوره های آموزش ترجمه استادان بیشتر سعی دارند دانشجویان را با انواع متون آشنا سازند، درحالی که کمتر به خطاهای مکرر آنان در متن ترجمه شده می پردازند. اهمیت تحقیق حاضر مبنی بر ارتکاب مکرر خطاهای ترجمانی حتی بعد از گذراندن دوره های تخصصی ترجمه از سوی دانشجویان است. هدف از آن تاکید بر خطاهای رایج میان دانشجویان مترجمی و کاهش این خطاها با افزایش آگاهی و هوشیاری دانشجویان از بروز آنها است.از آنجا ک...

15 صفحه اول

A Persian-English Cross-Linguistic Dataset for Research on the Visual Processing of Cognates and Noncognates

Finding out which lexico-semantic features of cognates are critical in cross-language studies and comparing these features with noncognates helps researchers to decide which features to control in studies with cognates. Normative databases provide necessary information for this purpose. Such resources are lacking in the Persian language. We created a dataset and determined norms for the essenti...

متن کامل

developing a pattern based on speech acts and language functions for developing materials for the course “ the study of islamic texts translation”

هدف پژوهش حاضر ارائه ی الگویی بر اساس کنش گفتار و کارکرد زبان برای تدوین مطالب درس "بررسی آثار ترجمه شده ی اسلامی" می باشد. در الگوی جدید، جهت تدوین مطالب بهتر و جذاب تر، بر خلاف کتاب-های موجود، از مدل های سطوح گفتارِ آستین (1962)، گروه بندی عملکردهای گفتارِ سرل (1976) و کارکرد زبانیِ هالیدی (1978) بهره جسته شده است. برای این منظور، 57 آیه ی شریفه، به صورت تصادفی از بخش-های مختلف قرآن انتخاب گردید...

15 صفحه اول

Towards Semantic Dataset Profiling

The web of data is growing constantly, both in terms of size and impact. A potential data publisher needs to dispose with recapitulative information on the datasets available on the web, so that she can easily identify where to look for the resources to which her data relates. This information will help discover candidate datasets for interlinking. In that context, we investigate the problem of...

متن کامل

ذخیره در منابع من


  با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید

ژورنال

عنوان ژورنال: Lecture Notes in Computer Science

سال: 2021

ISSN: ['1611-3349', '0302-9743']

DOI: https://doi.org/10.1007/978-3-030-88361-4_20